Перейти к основному содержимому

Data Lake

Data Lake — метод хранения данных системой или репозиторием в сыром (неструктурированном) или частично обработанном виде.

  • большой срок хранения данных
  • есть возможность их преобразования
  • поддерживаются разные схемы чтения данных

Как хранятся данные

Сырой (Raw) слой

  • загружаются без предварительной обработки

Обработанный (Processed) слой

  • структурируются, очищаются, трансформируются
  • форматы: табличные, агрегированные данные.

Аналитический (Curated) слой

  • оптимизированы для аналитики и бизнес-отчетов, например, формируются OLAP-кубы или специализированные наборы данных

Форматы хранения

  • структурированные: SQL-таблицы, Parquet, ORC
  • полуструктурированные: JSON, XML
  • неструктурированные: видео, изображения, аудиофайлы, логи

Данные сохраняются как есть, структура определяется во время анализа.

Где используется Data Lake

  • аналитика Big Data: анализ поведения, прогнозы, сегментация (e-commerce, банки, нефтегаз и тд)
  • ML и AI: подготовка данных для моделей (рекомендации, NLP, CV)
  • Телекоммуникации: хранения и анализа данных о клиентах, трафике, сетевых устройствах
  • кибербезопасность, поддержка: логи, аудио, видео, текст
  • Объединение источников: CRM, IoT, соцсети, финтех

Виды интеграций с Data Lake

  • ETL/ELT-процессы: загрузка данных из источников с минимальной трансформацией или после обработки.
  • API
  • с BI и ML-платформами: например, Tableau, Power BI, Spark или TensorFlow для обработки данных напрямую из хранилища.

Пример работы

Сбор данных о продажах из онлайн-магазина (CSV-файлы), отзывы клиентов (текст), логи веб-сервера (JSON) и записи звонков в службу поддержки (аудио).

  • для анализа отзывов используется NLP (извлекает из текстов тональность)
  • создаются модели машинного обучения по веб-логам для анализа
  • по объединённым данным о продажах и звонках создаются отчёты

Чем отличается от СУБД и DWH

  • СУБД: хранит структурированные данные в таблицах, оптимизирована для транзакций (например, учёт заказов). Также предназначена для бизнес-логики.

  • Data Lake: поддерживает любые форматы данных и предназначен для аналитики.

  • DWH: хранит обработанные и агрегированные данные для аналитики и отчётности.

  • Data Lake: сохраняет исходные данные в сыром виде.

Плюсы и минусы

Плюсы

  • хранение любых данных (структурированные, полу- и неструктурированные)
  • легко обрабатывать большие объёмы данных, быстрый доступ к ним
  • базируются на Open Source решениях

Минусы

  • риск "болота данных": потеря структуры и полезности данных без управления метаданными
  • данные требуют дополнительных шагов для анализа (ETL/ELT)
  • сложность реализации контроля доступа
  • для аналитики данные нужно обработать
  • для сбора реляционных данных есть гораздо более удобные решения

Как лучше использовать

  • настройка источников информации и фильтров в дальнейшем сильно упростит анализ и поможет сэкономить
  • максимально детализировать метаданные
  • проработывать способы очистки ненужной информации

Примеры ПО

  • Yandex DataSphere: платформа для анализа данных, ML и Data Lake
  • VK Cloud Solutions: решения для хранения и обработки больших данных
  • Сбер Data Lake: хранилище больших данных от Сбера для корпоративных нужд
  • Selectel Cloud Storage: объектное хранилище для работы с большими данными

Подборка материалов по теме Data Lake

  1. Data Lake
  2. Хранилище данных vs. Data Lake. Или почему важно научиться ходить перед тем, как начать бегать
  3. Чем озеро данных отличается от базы и зачем оно нужно аналитикам
  4. Что такое озеро данных?
  5. Распределенное хранилище данных в концепции Data Lake: с чего начать
  6. Как мы организовали высокоэффективное и недорогое DataLake и почему именно так
  7. Data Lake – от теории к практике. Сказ про то, как мы строим ETL на Hadoop
  8. Что в глубинах Data Lake? Строим архитектуру, укладываем слои, распределяем ответственность
  9. Озера данных vs обычные БД
  10. От базы данных к озеру данных: принципиальные различия между двумя технологиями
  11. От базы данных к озеру данных: принципиальные различия между двумя технологиями
  12. Сравнение data lake с хранилищем данных
  13. Ключевые различия между Data Lake и хранилищем данных
  14. Озеро, хранилище и витрина данных
  15. База данных, озеро данных или хранилище данных: что выбрать для хранения информации
  16. Озеро данных vs Хранилище данных

Посты из нашего канала

  1. ETL и ELT
  2. OLTP и OLAP
  3. Data Warehouse (DWH)
  4. Основные понятия баз данных

Видео

  1. Что такое озёра данных за 10 мин
  2. Различие DWH и Datalake, и с чего начать лучше?
  3. Озёра данных и видеоаналитика - увидеть ценное без воды
  4. Вебинар: Как построить озеро данных и не слить бюджет? Решения Atos и Cloudera для внедрения DataLake
  5. Озеро данных в S3 хранилище на основе Dremio OSS и Redshift Spectrum
  6. Как создать озеро данных и не захлебнуться
  7. Владимир Озеров — Быстрая обработка данных в Data Lake с помощью Trino